Text copied to clipboard!

Titlu

Text copied to clipboard!

Inginer Fiabilitate Site

Descriere

Text copied to clipboard!
Căutăm un Inginer Fiabilitate Site pasionat și experimentat care să se alăture echipei noastre tehnice. În acest rol, vei fi responsabil pentru menținerea fiabilității, disponibilității și performanței sistemelor noastre software critice. Vei colabora strâns cu echipele de dezvoltare și operațiuni pentru a proiecta, implementa și menține infrastructura care susține aplicațiile noastre la scară largă. Responsabilitățile tale vor include monitorizarea continuă a sistemelor, automatizarea proceselor operaționale, gestionarea incidentelor și îmbunătățirea continuă a performanței și stabilității aplicațiilor. Vei contribui la dezvoltarea și implementarea de soluții scalabile și reziliente, folosind cele mai bune practici din domeniul DevOps și SRE (Site Reliability Engineering). Un candidat ideal are o înțelegere solidă a arhitecturilor distribuite, experiență în lucrul cu sisteme cloud (precum AWS, Azure sau GCP), cunoștințe avansate de scripting și programare, precum și o atitudine proactivă în identificarea și rezolvarea problemelor. În plus, vei avea ocazia să influențezi cultura operațională a companiei, promovând practici de inginerie fiabilă și contribuind la definirea indicatorilor de performanță (SLI, SLO, SLA). Dacă ești pasionat de automatizare, scalabilitate și fiabilitate, și îți place să lucrezi într-un mediu dinamic și colaborativ, te încurajăm să aplici.

Responsabilități

Text copied to clipboard!
  • Monitorizarea continuă a performanței și disponibilității sistemelor
  • Automatizarea proceselor de operare și implementare
  • Gestionarea incidentelor și rezolvarea rapidă a problemelor
  • Colaborarea cu echipele de dezvoltare pentru îmbunătățirea fiabilității aplicațiilor
  • Implementarea și menținerea instrumentelor de observabilitate
  • Definirea și urmărirea indicatorilor SLI, SLO și SLA
  • Optimizarea infrastructurii pentru scalabilitate și reziliență
  • Participarea la rotația de on-call pentru suport operațional
  • Documentarea proceselor și a arhitecturii sistemelor
  • Contribuția la cultura DevOps și SRE în cadrul organizației

Cerințe

Text copied to clipboard!
  • Experiență anterioară ca Site Reliability Engineer sau rol similar
  • Cunoștințe solide de Linux/Unix și rețelistică
  • Experiență cu servicii cloud (AWS, Azure, GCP)
  • Abilități de scripting (Bash, Python, etc.)
  • Familiaritate cu instrumente de monitorizare (Prometheus, Grafana, etc.)
  • Cunoștințe despre containere și orchestrare (Docker, Kubernetes)
  • Capacitatea de a lucra într-un mediu agil și colaborativ
  • Abilități excelente de rezolvare a problemelor
  • Cunoștințe despre CI/CD și infrastructură ca cod
  • Studii superioare în informatică, inginerie sau domenii conexe

Întrebări posibile la interviu

Text copied to clipboard!
  • Ce experiență ai în gestionarea sistemelor distribuite?
  • Ai lucrat anterior cu Kubernetes sau alte platforme de orchestrare?
  • Cum ai rezolvat un incident critic în trecut?
  • Ce instrumente de monitorizare ai folosit și în ce scop?
  • Cum ai automatizat procesele operaționale într-un proiect anterior?
  • Ce înseamnă pentru tine fiabilitatea unui sistem?
  • Ai experiență cu infrastructura ca cod? Ce tehnologii ai folosit?
  • Cum prioritizezi sarcinile în timpul unui incident major?
  • Ce provocări ai întâmpinat în lucrul cu sisteme la scară largă?
  • Cum colaborezi cu echipele de dezvoltare pentru a îmbunătăți fiabilitatea?